DeepSeek R1 - mrsekut-p

DeepSeek R1

2025/1に発表された

https://github.com/deepseek-ai/DeepSeek-R1

https://x.com/hillbig/status/1881471978252705822?s=12

GPT-4.icon

論理的推論、数学的推論、リアルタイムの問題解決に特化したモデルで、複雑な問題に対する推論能力を強化しています。

数学的推論やプログラミングタスクにおいて、o1と同等の性能を発揮しています。

トレーニング

強化学習（RL）を活用し、特に人間の評価を模倣したトレーニング手法を採用しています